以中文十億詞語料庫為基礎之兩岸詞彙對比研究 (A Study of Lexical Differences between China and Taiwan based on the Chinese Gigaword Corpus) [In Chinese]

نویسندگان

Jia-Fei Hong

Chu-Ren Huang

Mingwei Xu

چکیده

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

大規模詞彙語意關係自動標示之初步研究: 以中文詞網(Chinese Wordnet)為例 (A Preliminary Study on Large-scale Automatic Labeling of Lexical Semantic Relations: A Case study of Chinese Wordnet) [In Chinese]

近年來, 以知識資源為本的自然處理技術已成為一種重要的研究取向。對於各種詞彙語意資源之建構, 包括電子辭典 (Lexicon)、同義詞詞林 (Thesaurus)、詞彙網路 (WordNet), 甚至知識本體 (ontologies), 已成為一個不可抵擋的趨勢。其中, 詞彙網路是在計算語言學相關領域中, 目前最為普遍利用之一項詞彙語意資源。然而, 詞彙網路之建構是一項耗時費力之基礎工程。對於世界上許多使用頻度不高的語言而言, 更是一項艱鉅之任務。本文提出一個借力於普林斯頓英語詞網 (Princeton WordNet) 與歐語詞網 (EuroWordNet) 之 bootstrapping 方法, 應用在正在發展的中文詞網詞彙語意關係之自動標記工作上。實驗的結果與初步評估證明, 此法對於詞網建構是一個相當可行的方式。

متن کامل

以語料為基礎的中文語篇連貫關係自動標記 (Corpus-Based Coherence Relation Tagging in Chinese Discourse) [In Chinese]

近年來, 以知識資源為本的自然處理技術已成為一種重要的研究取向。對於各種詞彙語意資源之建構, 包括電子辭典 (Lexicon)、同義詞詞林 (The-saurus)、詞彙網路 (WordNet), 甚至知識本體 (ontologies), 已成為一個不可抵擋的趨勢。其中, 詞彙網路是在計算語言學相關領域中, 目前最為普遍利用之一項詞彙語意資源。然而, 詞彙網路之建構是一項耗時費力之基礎工程。對於世界上許多使用頻度不高的語言而言, 更是一項艱鉅之任務。本文提出一個借力於普林斯頓英語詞網(Princeton WordNet) 與歐語詞網 (EuroWordNet) 之 bootstrap-ping 方法, 應用在正在發展的中文詞網詞彙語意關係之自動標記工作上。實驗的結果與初步評估證明, 此法...

متن کامل

Automatic labeling of troponymy for Chinese verbs

以同義詞集與詞彙語意關係架構而成的詞彙知識庫,如英語詞網 (Wordnet)、歐語詞網 (EuroWordnet)等,已有充分的研究,詞網的建構也已相當完善。基於相同的目的,中研院語言所亦已建立大規模之中文詞彙網路 (Chinese Wordnet,CWN),旨在提供完整的中文辭彙之詞義區分。然而,在目前之中文詞彙網路系統中,由於目前主要是採用人為判定來標記同義詞集之間的語意關係,因此這些標記之數量尚未達成可行應用之一定規模。因此,本篇文章特別針對動詞之間的上下位詞彙語意關係 (Troponymy),提出一種自動標記的方法。我們希望藉由句法上特定的句型 (lexical syntactic pattern),建立一個能夠自動抽取出動詞上下位的系統。透過詞義意判定原則的評估,結果顯示,此系統自動抽取出的動詞上位詞,正確率將近百分之七十。本研究盼能將本方法應用於正在發展中...

متن کامل

漢語動詞辭彙語義分析：表達模式與研究方法 (A Lexical-Semantic Analysis of Mandarin Chinese Verbs: Representation and Methodology)

在這篇文章中我們將簡單扼要地介紹詞庫小組分析動詞語意的作法,包含了理論部分以及分析的方法和步驟。這套理論架構是從實際分析的過程中逐漸形成的,但尚未完全成熟。截至目前為止,我們已經分析了四十多組近義動詞和近十組動詞語意場,並初步架構了一套由語意屬性組成的動詞語意表達模式。這套理論和分析方法是建立在詞庫小組十幾年的研究基礎上,結合了眾人的力量逐步完成的。本文嘗試統合眾人的研究所得,設法銜接理論與語言事實,並詳細介紹我們的研究方法。關於理論部分,詞庫小組已發表了許多篇論文。早期架構請參考 Tsai 等人[1998]、Huang 等人[1998],最近的架構請參考 Huang 等人[見本期刊]。這些論文側重理論架構在學理上的探討,對語言事實涉及較少。本文則採用較多的語料,設法將理論落實。此外,詞庫小組也發表多篇論文探討了幾個特定近義詞組或語意場,像是 Chang 等人[...

متن کامل

以共現資訊為基礎增進中學英漢翻譯試題與解答之詞彙對列 (Using Co-Occurrence Information to Improve Chinese-English Word Alignment in Translation Test Items for High School Students) [In Chinese]

本文探討我國中學程度翻譯試題的中文試題與英文解答的詞彙對列問題。我們先利用漢英字典作為基礎,找尋互為翻譯的漢英詞對;然後利用未被對列的剩餘詞彙之間的共現關係,以五種過去在文獻中探索過的計分方式,來尋找與界定更多的互譯詞彙組合。在超過 17,000 道試題為基礎的測試中,我們以人工檢視計分機制給予高分的部分對列詞彙的正確性。實驗結果顯示,進一步利用未對列詞彙的方法,可以把對列成果的 F measure 從 76.9%提高到 83.7%。 Abstract We study the word alignment between the Chinese problems and the English answers for the English-Chinese translation tests at the high school level in Taiwan. After...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2007

以中文十億詞語料庫為基礎之兩岸詞彙對比研究 (A Study of Lexical Differences between China and Taiwan based on the Chinese Gigaword Corpus) [In Chinese]

نویسندگان

چکیده

منابع مشابه

大規模詞彙語意關係自動標示之初步研究: 以中文詞網(Chinese Wordnet)為例 (A Preliminary Study on Large-scale Automatic Labeling of Lexical Semantic Relations: A Case study of Chinese Wordnet) [In Chinese]

以語料為基礎的中文語篇連貫關係自動標記 (Corpus-Based Coherence Relation Tagging in Chinese Discourse) [In Chinese]

Automatic labeling of troponymy for Chinese verbs

漢語動詞辭彙語義分析：表達模式與研究方法 (A Lexical-Semantic Analysis of Mandarin Chinese Verbs: Representation and Methodology)

以共現資訊為基礎增進中學英漢翻譯試題與解答之詞彙對列 (Using Co-Occurrence Information to Improve Chinese-English Word Alignment in Translation Test Items for High School Students) [In Chinese]

عنوان ژورنال:

اشتراک گذاری